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Description 

L'invention concerne les proc6d6s et dispositifs 
de synthase de la parole ; elle concerne, plus parti- 
culi£rement, la synthase £ partir d'un dictionnaire 
d'ei6ments sonores par decoupage du texte £ synthe- 
tiser en microtrames identifi6es chacune par un nu- 
m£ro d'ordre d'6l6ment sonore correspondant et par 
des parametres prosodiques (information de hauteur 
de son au debut et £ la fin de reiement sonore et du- 
r6e de reiement sonore), puis par adaptation et 
concatenation des elements sonores par une proce- 
dure d'addition-recouvrement. 

Les elements sonores stock6s dans (e dictionnai- 
re serontf r£quemment des diphones, c'est-d-dire des 
transitions entre phonemes, ce qui permet, pour la 
langue frangaise, de se contenter d'un dictionnaire 
d'environ 1300 elements sonores ; on peut cepen- 
dant utiliser des elements sonores diff6rents, par 
exemple des syllabes ou mdme des mots. Les para- 
metres prosodiques sont determines en fonction de 
criteres portant sur le contexte : la hauteur de son qui 
correspond £ rintonation, depend de Templacement 
de reiement sonore dans un mot et dans la phrase et 
la duree donnee £ reiement sonore est fonction du 
rythme de la phrase. 

II faut rappeler au passage que les methodes de 
synthase de la parole se subdivisent en deux grou- 
pes. Celles qui utilisent un module mathematique du 
conduit vocal (synthase par prediction Nn6aire t 
synthase £ formants et synthase £ transformee de 
Fourier rapide) font intervenir une d6con volution de la 
source et de la fonction de transfert du conduit vocal 
et exigent en general une cinquantaine d'op6rations 
arithmetiques par 6chantillon numerique de la parole 
avant conversion num6rique-analogique et restitu- 
tion. 

Cette deconvolution source-conduit vocal per- 
met d'une part la modification de la valeur de la fre- 
quence fondamentale des sons vois6s f c'est-£-dire 
des sons qui ont une structure harmonique et sont 
provoqu6s par vibration des cordes vocales, et d'au- 
tre part la compression des donnees representant le 
signal de parole. 

Celles qui appartiennent au second groupe de 
procedes utilisent la synthase dans le domaine tem- 
porel par concatenation de formes d'onde. Cette so- 
lution a I'avantage de la flexibility d'emploi et de la 
possibilite de r6duire consid6rablement le nombre 
d'operations arithmetiques par echantillons. En 
contrepartie, elle ne permet pas de reduire le debit 
necessaire £ la transmission autant que les methodes 
bas6es sur un modeie mathematique. Mais cet incon- 
venient disparattlorsqu'on recherche essentiellement 
une bonne qualite de restitution sans etre gSn6 par 
la n6cessite de transmettre des donnees sur un canal 
etroit. 

La synthese de parole suivant la pr6sente inven- 



tion appartient au second groupe. Elle trouve une ap- 
plication particulierement importante dans le domai- 
ne de la transformation d'une chaftie orthographique 
(constituee par exemple par le texte fourni par une 
5 imprimante) en un signal de parole, par exemple res- 
titue directement ou 6mis sur une ligne teiephonique 
normale. 

On connait d6j£ (Diphone synthesis using an 
overlap-add technique for speech waveforms conca- 

10 tenation, CHARPENTIER et al, ICASSP 1986, IEEE- 
IECEJ-ASJ International Conference on Acoustics 
Speech and Signal Processing, pages 2 015-2 
018)un precede de synthese de parole £ partir d'6l6- 
ments sonores utilisant une technique d'addition-re- 

15 couvrement de signaux £ court-terme. Mais il s'agit 
de signaux £ court-terme de synthese, avec normali- 
sation du recouvrement des fendtres de synthese, 
obtenus par un processus tr£s complexe : 

- analyse du signal original par fenetrage syn- 
20 chrone du voisement ; 

- transformee de Fourier du signal £ court- 
terme ; 

- detection d'enveloppe ; 

- homothetie de I'axe fr6quentiel sur le spectre 
25 de la source ; 

- ponderation du spectre modifie de la source 
par I'enveloppe du signal d'origine ; 

- transformee de Fourier inverse. 

La presente invention vise notamment £ fournir 

30 un procede reiativement simple et permettant une re- 
production acceptable de la parole. Elle part de I'hy- 
pothese qu'on peut consid6rer les sons vois£s 
comme la somme des reponses impulsionnelles d'un 
filtre, stationnaire durant plusieurs millisecondes, 

35 (correspondant au conduit vocal) excite par une suite 
de Dirac, c'est-£-dire par un "peigne d'impulsions", de 
fagon synchrone de la frequence fondamentale de la 
source, c'est-£-dire des cordes vocaies, ce qui se tra- 
duit dans le domaine spectral par un spectre harmo- 

40 nique, les harmoniques etant espac6s de la frequen- 
ce fondamentale et pond£r6s par une enveloppe pr6- 
sentant des maxima appeies formants, dependant de 
la fonction de transfert du conduit vocal. 

On a dej£ propose (Micro-phonemic method of 

45 speech synthesis, Lucaszewic et al, ICASSP 1987, 
IEEE, pages 1426-1429) d'effectuer une synthese de 
parole ou la diminution de la frequence fondamentale 
des sons vois6s, lorsqu'elle est necessaire pour res- 
pecter des donnees prosodiques, est effectu6e par 

50 insertion de zeros, les microphon&mes stockes de- 
vant alors obligatoirement correspondre £ la hauteur 
maximale possible du son £ restituer, ou bien (brevet 
US 4 692 941) de diminuer de la m§me mani£re par 
insertion de zeros la frequence fondamentale, et 

55 d'augmenter celle-ci en diminuant la taille de chaque 
periode. Ces deux methodes introduisent sur le signal 
de parole des distorsions non n6gligeables lors de la 
modification de la frequence fondamentale. 
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La presents invention vise £ fournir un proc6d6 et 
un dispositif de synthase £ concatenation de formes 
d'onde ne pr6sentant pas la limitation ci-dessus et 
permettant de fournir une parole de bonne qualite, 
tout en ne n£cessitant qu'un faible volume de calculs 5 
arithmetiques. 

Dans ce but, l'invention propose notamment un 
proc6d6 suivant la revendication 1. 

Ces operations constituent la procedure de re- 
couvrement puis addition des formes d'onde eiemen- 10 
taires obtenues par fen£trage du signal de parole. 

En general, on utilisera des elements sonores 
constitues par des diphones. 

La largeur de la fen§tre peut varier entre des va- 
leurs inferieures et superieures £ deux fois la periode 1 5 
d'origine. Dans I'exemple de mise en oeuvre qui sera 
decrit plus loin, la largeur de la fendtre est choisie 
avantageusement 6gale £ environ deux fois la perio- 
de d'origine en cas d'augmentation de la periode fon- 
damentale ou environ deux fois la periode finale de 20 
synthase en cas d'augmentation de la frequence fon- 
damentale, af in de compenser partiellement les mo- 
difications d'energie dues au changement de la fre- 
quence fondamentale, non compensees par une nor- 
malisation possible de renergie, tenant compte de la 25 
contribution de chaque fenfitre £ I'amplitude des 
echantillons du signal num6rique de synthese : dans 
le cas d'une diminution de la periode fondamentale, 
la largeur de la fendtre sera done inferieure £ deux 
fois la periode fondamentale d'origine. II est peu sou- 30 
haitable de descendre au dessous de cette valeur. 

Du fait qu'il est possible de modifier la valeur de 
la frequence fondamentale dans les deux sens, les di- 
phones sont memorises avec la frequence fonda- 
mentale naturelle du locuteur. 35 

Avec une fenStre de dur6e 6gale £ deux p6riodes 
fondamentales consecutives dans le cas vois6, on 
obtient des formes d'onde 6l6mentaires dont le spec- 
tre represente sensiblement I'envetoppe du spectre 
du signal de parole ou spectre £ court terme large 40 
bande -du fait que ce spectre est obtenu par convo- 
lution du spectre harmonique du signal de parole et 
de la reponse f requentielle de la fenStre, qui dans ce 
cas possede une largeur de bande superieure £ la dis- 
tance entre harmoniques- ; la redistribution temporel- 45 
le de ces formes d'onde 6l6mentaires donnera un si- 
gnal possedant sensiblement la m£me enveloppe 
que le signal d'origine mais une distance entre har- 
moniques modif i6e. 

Avec une fenStre de dur6e superieure £ deux p6- so 
riodes fondamentales, on obtient des formes d'onde 
eiementaires dont le spectre est encore harmonique, 
ou spectre £ court terme bande etroite -du fait que 
cette fois-ci la reponse f requentielle de la fen§tre est 
moins large que la distance entre harmoniques- ; la 55 
redistribution temporelle de ces formes d'onde eie- 
mentaires donnera un signal possedant, comme le si- 
gnal de synthese precedent, sensiblement la m§me 



enveloppe que le signal d'origine £ ceci pr£s qu'on 
aura introduit des termes de reverberation (signaux 
dont le spectre possede une amplitude moindre, une 
phase differente, mais la m§me forme que le spectre 
d'amplitude du signal d'origine), dont I'effet ne sera 
audible qu'au del£ de largeurs de fendtre d'environ 
trois periodes, cet effet de reverberation ne d£gra- 
dant pas la qualite du signal de synthese lorsque son 
amplitude est faible. 

On peut notamment utiliser une fendtre de Han- 
ning, bien que d'autres formes de fendtre soient 6ga- 
lement acceptables. 

Le traitement ddfini ci-dessus peut egalement 
§tre applique aux sons dits sourds ou non voises, 
pouvant fitre repr6sent6s par un signal dont la forme 
s'apparente £ celle d'un bruit blanc, mais sans syn- 
chronisation des signaux fen§tr6s : ceci a pour but 
d'homogeneiser le traitement sur les sons sourds et 
les sons voises, ce qui permet d'une part le lissage 
entre elements sonores (diphones) et entre phone- 
mes sourds et voises, etd'autre part une modification 
du rythme. II se pose un probieme £ la jonction entre 
diphones. Une solution pour 6carter cette difficulty 
consiste £ omettre I'extraction de formes d'onde eie- 
mentaires £ partir des deux periodes fondamentales 
adjacentes de transition entre diphones (dans le cas 
des sons sourds, les marques de voisement sont rerrv 
placees par des marques posees arbitrairement) : on 
pourra soit d6f inir une troisi£me fonction d'onde 6I6- 
mentaire en calculant la moyenne des deux fonctions 
d'onde eiementaires extraites de part et d'autre du di- 
phone, soit utiliser la procedure d'addition-recouvre- 
ment directement sur ces deux fonctions d'onde eie- 
mentaires. 

L'invention sera mieux comprise £ la lecture de la 
description qui suit d'un mode particulier de mise en 
oeuvre de l'invention, donn£ £ titre d'exemple non li- 
mitatif. La description se r6f6re aux dessins qui I'ac- 
compagnent, dans lesquels : 

- la Figure 1 est un graphe destine £ illustrer la 
synthese de la parole par concatenation de di- 
phones et modification des param£tres proso- 
diques dans le domaine temporel, conforme- 
ment £ l'invention ; 

- la Figure 2 est un schema synoptique montrant 
une constitution possible du dispositif de 
synthese, implante sur un calculateur hdte ; 

- la Figure 3 montre, £ titre d'exemple, comment 
on modif ie les param£tres prosodiques d'un si- 
gnal naturel, dans le cas d'un phoneme parti- 
culier ; 

- les Figures 4A, 4B et 4C sont des graphiques 
destines £ montrerdes modifications spectra- 
les apportees £ des signaux de synthese voi- 
ses, la Figure 4A montrant le spectre d'origine, 
la Figure 4B le spectre avec diminution de la 
frequence fondamentale et la Figure 4C le 
spectre avec augmentation de cette frequen- 
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ce ; 

- la Figure 5 est un graphique montrant un prin- 
cipe d'att6nuation des discontinues entre di- 
phones ; 

- la Figure 6 est un schema montrant le fendtra- 5 
ge sur plus de deux p6riodes. 

La synthese d'un phoneme est effectu6e k partir 
de deux diphones stockes dans un dictionnaire, cha- 
que phoneme etant compost de deux demi- 
diphones. Le son "6° dans °p6riode a par exemple sera w 
obtenu k partir du second demi-diphone de "pai" et du 
premier demi-diphone de "air". 

Un module de traduction orthographique phon6- 
tique et de calcul de la prosodie (qui ne fait pas partie 
de invention) fournit k un instant donn6, des indica- 15 
tions identif iant : 

- le phoneme k restituer, d'ordre P 

- le phoneme precedent, d'ordre P-1 

- le phoneme suivant, d'ordre P+1 

et donnant la duree k affecter au phoneme P ainsi que 20 
les p6riodes au debut et k la fin (Figure 1). 

Une premiere operation d'analyse, qui n'est pas 
modifiee par I'invention, consiste k determiner, par 
d6codage du nom des phonemes et des indications 
prosodiques, les deux diphones retenus pour le pho- 25 
n6me k utiliser et le voisement 

Tous les diphones disponibles (au nombre de 
1300 par exemple) sont memorises dans un diction- 
naire 10 muni d'une table constituant le descripteur 
1 2 et contenant I'adresse du d6but de chaque dipho- 30 
ne (en nombre de blocs de 256 octets) la longueur du 
diphone et le milieu du diphone (ces deux derniers 
param&tres etant exprim6s en nombre d'echantillons 
k partir du d6but) et des marques de voisement rep6- 
rant le d6but de la reponse du conduit vocal k I'exci- 35 
tation des cordes vocales dans le cas d'un son vois6 
(au nombre de 35 par exemple). Des diction naires de 
diphones r6pondant k ces criteres sont disponibles 
par exemple aupr6s du Centre National d'Etudes des 
Telecommunications. 40 

Les diphones sont alors utilises dans un proces- 
sus d'analyse et de synthese schematise sur la Figu- 
re 1. On decrira ce processus en supposant qu'il est 
mis en oeuvre dans un dispositif de synthese ayant 
la constitution montr6e en figure 2, destine k dtre re- 45 
lie k un calculateur hdte, tel que le processeur central 
d'un ordinateur personnel. On supposera 6galement 
que la frequence d'echantillonnage donnant la repre- 
sentation des diphones est de 16 kHz. 

Le dispositif de synthese (Figure 2) comporte so 
alors une m6moire vive principale 16 qui contient un 
micro-programme de calcul, le dictionnaire de dipho- 
nes 10 (c'est-e-dire des formes d'onde representees 
par des echantillons) ranges dans I'ordre des adres- 
ses du descripteur, la table 12 constituant le descrip- 55 
teur de dictionnaire, et une fendtre de Hanning, 
6chantilIonn6e par exemple sur 500 points. La m6- 
moire vive 1 6 constitue egalement memoire de micro- 



trame et memoire de travail. Elle est reliee par un bus 
de donnees 1 8 et un bus d'adresses 20 k un acces 22 
au calculateur hdte. 

Chaque micro-trame emise pour restituer un 
phoneme (Figure 2) est constitu6e, pour chacun des 
deux phonemes P et P+1 qui interviennent 

- du num6ro d'ordre du phoneme, 

- de la valeur de la p£riode au debut du phone- 
me, de la valeur de periode k la fin du phone- 
me, et 

- de la duree totale du phoneme pouvant §tre 
remplacee par la duree du diphone pour le se- 
cond phoneme. 

Le dispositif comprend encore, relies aux bus 18 
et 20, une unite de calcul locale 24 et un circuit d'ai- 
guillage 26. Ce dernier permet de relier une memoire 
vive 28 servant de tampon de sortie soit vers le cal- 
culateur, soit vers un contrdleur 30 de convertisseur 
numerique/analogique 32 de sortie. Ce dernier atta- 
que un f iltre passe-bas 34, g6n6ralement limite k 8 
kHz, qui alimente un amplif icateur de parole 36. 

Le fonctionnement du dispositif est (e suivant. 

Le calculateur hdte (non repr£sent6) charge les 
micro-trames dans le tableau reserve en memoire 1 6, 
par I'intermediaire de I'acces 22 et des bus 18 et 20, 
puis il commando le debut de synthese k I'unite de 
calcul 24. Cette unite de calcul recherche le num6ro 
du phoneme courant P, du phoneme suivant P+1 etdu 
phoneme precedent P-1 dans le tableau de micro-tra- 
mes, k I'aide d'un index memorise dans la memoire 
de travail, initialis£e k 1. Dans le cas du premier pho- 
neme, I'unite de calcul vient chercher uniquement les 
numeros du phoneme courant et du phoneme sui- 
vant. Dans le cas du dernier phoneme, elle vient cher- 
cher le numero du phoneme precedent et celui du 
phoneme courant. 

Dans le cas general, un phoneme est constitue 
de deux demi-diphones ; I'adresse de chaque dipho- 
ne est recherchee par adressage matriciel dans le 
descripteur du dictionnaire par la formule suivante : 

numero du descripteur de diphone = numero du 
1er phoneme + (num6ro du 2eme phoneme - 
1) * nombre de diphones 

Sons voises 

L'untte de calcul charge, en memoire de travail 
16, I'adresse du diphone, sa longueur, son milieu ain- 
si que les trente-cinq marques de voisement. Elle 
charge ensuite, dans un tableau descripteur du pho- 
neme, les marques de voisement correspondant k la 
deuxieme partie du diphone. Puis elle recherche, 
dans le dictionnaire de formes d'onde, la deuxieme 
partie du diphone, qu'eile place dans un tableau re- 
presentant le signal du phoneme d'analyse. Les mar- 
ques conservees dans le tableau descripteur du pho- 
neme sont decrementees de la valeur du milieu du dh 
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phone. 

Cette operation est repefee pour la deuxidme 
partie du phoneme constitute par la premiere partie 
du deuxieme diphone. Les marques de voisement de 
la premiere partie du deuxieme diphone sont ajoufees 5 
aux marques de voisement du phoneme et incr6men- 
fees de la valeur du milieu du phoneme. 

Dans le cas des sons voises, I'unife de calcul, £ 
partir des pararrfetres prosodiques (dur6e, periode 
debut et periode fin du phoneme) determine alors le 10 
nombre de periodes n6cessaire £ la dur6e du phone- 
me, suivant la formule : 

nombre de pgriodes = 2 * dur6e du phoneme / (p6- 
riode dgbut + periode fin) 

L'unife de calcul range en mgmoire le nombre de 15 
marques du phoneme naturel, 6gal au nombre de 
marques de voisement, puis determine le nombre de 
periodes £ eiiminer ou £ ajouter en effectuant la dif- 
ference entre le nombre de periodes de synthese et 
le nombre de pgriodes d'analyse, difference qui est 20 
f ix6e par la modification de tonal ife £ introduire £ par- 
tir de ceile qui correspond au dictionnaire. 

Pour chaque p£riode de synthase retenue, I'unife 
de calcul determine ensuite la pgriode d'analyse re- 
tenue parmi les pgriodes du phoneme £ partir des 25 
considerations suivantes : 

- la modification de la durge peut §tre considg- 
rge comme la mise en correspondance, par de- 
formation de I'axe des temps du signal de 
synthase, des n marques de voisement du si- 30 
gnal d'analyse et des p marques du signal de 
synthase, n et p etant des entiers predetermi- 
nes ; 

- £ chacune des p marques du signal de synthg- 

se doit §tre associee la marque la plus proche 35 
du signal d'analyse. 

La duplication ou, au contraire, reiimination de 
periodes egalement reparties sur tout le phoneme 
modifie la dur6e de celui-ci. 

II faut noter qu'on n'aura pas £ extraire une forme 40 
d'onde efementaire £ partir des deux periodes adja- 
centes de transition entre diphones : I'operation d'ad- 
dition-recouvrement des fonctions 6l6mentaires ex- 
traites des deux dernigres periodes du premier dipho- 
ne et des deux premieres periodes du deuxieme di- 45 
phone permet le lissage entre ces diphones comme 
le montre la figure 5. 

Pour chaque periode de synth£se, I'unite de cal- 
cul determine le nombre de points £ ajouter ou £ sup- 
primer £ la periode d'analyse en effectuant la diffe- so 
rence entre cette derni6re et la periode de synthese. 

Comme on I'a indique plus haut, il est avantageux 
de choisir la largeur de la fenetre d'analyse de la fa- 
gon suivante, illustr6e en Figure 3 : 

- si la periode de synthese est inferieure £ la p6- 55 
node d'analyse (lignes A et B de la Figure 3), 

la taille de la fenetre 38 est le double de la pe- 
riode de synthese ; 



- dans le cas contraire, la taille de la fenetre 40 
est obtenue en multipliant par deux ia plus fat- 
ble des valeurs de la periode d'analyse couran- 
te et de la periode d'analyse precedente (lignes 
C et D). 

L'unite de calcul determine un pas d'avancement 
dans la lecture des valeurs de la fenetre, tabufee par 
exemple sur 500 points, le pas etant alors 6gal & 500 
divise par la taille de la fenetre pr£cedemment calcu- 
fee. Elle lit dans la memoire tampon de signal du pho- 
neme d'analyse 28 les echantillons de la periode pre- 
cedente et de la periode courante, les pondere par la 
valeur de la fenetre de Hanning 38 ou 40 indexge par 
le numero de I'echantiilon courant multiplie par le pas 
d'avancement dans la fenetre tabufee et ajoute, au 
fur et £ mesure, les valeurs calcuiees £ la memoire 
tampon du signal de sortie indexe par la somme du 
compteur de I'echantiilon courant de sortie et de {'in- 
dex de recherche des echantillons du phoneme 
d'analyse. Le compteur de sortie courant est ensuite 
incremenfe de la valeur de la periode de synthese. 

Sons sourds (non vois6s) 

Pour les phonemes sourds, le traitement est ana- 
logue au precedent, excepfe que la valeur des pseu- 
do-periodes (distance entre deux marques de voise- 
ment) n'est jamais modifies : reiimination de pseudo- 
periodes au centre du phoneme diminue simplement 
la dufee de celui-ci. 

On n'augmente pas la duree de phonemes 
sourds, excepfe par addition de zeros au milieu des 
phonemes "silence". 

Le fendtrage s'effectue par periode pour norma- 
liser la somme des valeurs des fenetres appliqu£es 
au signal : 

- du debut de la periode precedente £ la fin de 
la periode precedente, le pas d'avancement 
dans la lecture de la fenetre tabufee est (dans 
le cas d'une tabulation sur 500 points) 6gal £ 
500 divise par deux fois la duree de la periode 
precedente ; 

- du debut de la periode courante £ la fin de la 
periode courante, le pas d'avancement dans la 
fenetre tabufee est egal £ 500 divise par deux 
fois la duree de la periode courante plus un dg- 
calage constant de 250 points. 

A la fin du calcul du signal d'un phoneme de 
synthese, I'unife de calcul range la derni£re periode 
du phoneme d'analyse et de synthese dans la memoi- 
re tampon 28 qui permet la transition entre phone- 
mes. Le compteur de I'echantiilon courant de sortie 
est decremenfe de la valeur de la derniere periode de 
synthese. 

Le signal ainsi g6n6r6 est envoye, par blocs de 
2048 echantillons, dans un de deux espaces memoi- 
re reserves £ la communication entre I'unife de calcul 
et le contrdleur 30 du convertisseur nurrferique/ana- 
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logique 32. D6s que le premier bloc est charge dans 
la premiere zone tampon, le contrdleur 30 est active 
par I'unite de calcul et vide cette premiere zone tam- 
pon. Pendant ce temps, I'unite de calcul remplit une 
deuxieme zone tampon de 2048 6chantillons. L'unite 
de calcul vient ensuite alternativement tester ces 
deux zones tampons grdce d un drapeau pour y char- 
ger le signal num6rique de synthase d la fin de cha- 
que sequence de synthase d'un phoneme. Le contrd- 
leur 30, en fin de lecture de chaque zone tampon, po- 
sitionne le drapeau correspondent. En fin de syntha- 
se, le contrdleur vide la derni&re zone tampon et po- 
sitionne un drapeau de fin de synthase que le calcu- 
lates hdte peut lire via I'acces de communication 22. 

L'exemple de spectre de signal de parole vois6 
d'analyse et de synthase illustr6 en Figures 4A-4C 
montre que les transformations temporelles du signal 
numerique de parole n'affectent pas I'enveloppe du 
signal de synthase, tout en modif iant la distance en- 
tre harmoniques, c'est-d-dire la frequence fonda- 
mentale du signal de parole. 

La complexity du calcul reste faible : le nombre 
d'opgrations par 6chantillon est en moyenne de deux 
multiplications et deux additions pour la pond6ration 
et la sommation des fonctions 6l6mentaires fournies 
par I'analyse. 

^invention est susceptible de nombreuses va- 
riantes de realisation et, en particulier, comme on I'a 
indiqu6 plus haut, une fendtre de largeur sup6rieure 
k deux p6riodes, comme le montre la Figure 6, 6ven- 
tuellementde tai lie fixe, peut donner des r6sultats ac- 
ceptables. 

On peut aussi utiliser le precede de modification 
de la frequence fondamentale sur des signaux num6- 
riques de parole en dehors de son application d la 
synthase par diphones. 



Revendications 

1. Precede de synthase de parole £ partir d'6ie- 
ments sonores (mots, syllabes, diphones,...), sui- 
vant lequel : 

(a) on effectue, au moins sur les sons vois6s 
des elements sonores, une analyse en appli- 
quant une fen§tre de f iltrage synchrone de la 
frequence fondamentale d'origine, sensible- 
ment centre sur le d6but de chaque reponse 
impulsionnelle du conduit vocal & I'excitation 
des cordes vocales, pr6sentant une amplitu- 
de d6croissant jusqu'a z6ro aux bords de la fe- 
ndtre, dont la largeur est au moins 6gale a en- 
viron deux fois la p6riode fondamentale d'ori- 
gine ou environ deux fois la p6riode fonda- 
mentale de synthase, selon que la p6riode 
fondamentale de synthase est sup6rieure ou 
inferieure £ la p6riode fondamentale d'origine, 

(b) on replace les signaux resultant du fend- 



trage correspondant d chaque element sono- 
re, avec un d6calage temporel de ceux-ci 6gal 
d la p6riode fondamentale de synthase, sui- 
vant une information prosodique concernant 
5 la frequence fondamentale de synthase, et 

(c) on effectue la synthase par sommation 
des signaux ainsi d6ca!6s, 

caract6ris6 en ce que le proc6d6 ne 
comporte pas de transformation spectrale des sl- 
10 gnaux analyses, visant a modifier la frequence 
fondamentale de ces signaux, entre les stapes 
(a) et (b). 

2. Precede de synthase de parole selon la revendi- 
15 cation 1, caract6ris6 en ce qu'on realise un die- 

tionnaire d'eiements sonores, par exemple de di- 
phones, on d6coupe le texte a synthetiser en mi- 
cro-trames identifies chacune par le num6ro de 
reiement sonore correspondant (diphone) et au 
20 moins une information prosodique, constitute au 
moins par la valeur de la frequence fondamentale 
en debut et en fin d'eiement et par la dur6e de 
reiement. 

25 3. Precede de synthase de parole selon Tune des 
revendications 1 et 2, caract6ris6 en ce que la lar- 
geur de la fendtre est 6gale a deux fois la periode 
d'origine en cas de diminution de la frequence 
fondamentale ou deux fois la p6riode finale de 

30 synthase en cas d'augmentation de la frequence 
fondamentale. 

4. Precede de synthase de parole selon Tune des 
revendications 1 d 3, caract6ris6 en ce que la fe- 

35 ndtre est une fendtre de Hanning. 

5. Dispositif de synthase de parole executant le pro- 
cede selon la revendication 1, caracterise en ce 
qu'il comprend, relics a des bus (18,20) : une m6- 

40 moire vive principale (16) qui contient un micro- 
programme de calcul, un dictionnaire de dipho- 
nes (10) constitu6s de formes d'onde represen- 
tees par des 6chantillons ranges dans I'ordre des 
adresses d'un descripteur (12) de dictionnaire, et 

45 une fenetre de Hanning echantillonnee, ladite 

memoire vive (1 6) constituant 6galement m6moi- 
re de micro-trame et memoire de travail ; une uni- 
te de calcul locale (24) et un circuit d'aiguiilage 
(26) permettant de relier une memoire vive (28) 

so servant de tampon de sortie soit vers I'unite de 
calcul, soit vers un contrdleur (30) de convertis- 
seur numerique/analogique (32) de sortie atta- 
quant un filtre passe-bas (34) qui alimente un 
amplif icateur de parole (36). 

55 
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Patentanspruche 

1 . Verf ahren zur Sprachsy nthese aus akustischen 
Elementen (Worten, Silben, Diphonen, ...) ge- 
maft welchem: 5 

(a) bei wenigstens den stimmhaften Lauten 
der akustischen Elemente eine Analyse unter 
Anwendung eines Fensters zum synchronen 
Filtern der Ursprungsgrundfrequenz durch- 
gefuhrt wird, welches im wesentlichen auf 10 
dem Anfang jeder Imputsantwort des Stimnv 
kanals bei Anregung der Stimmbander zen- 
triert ist, welche eine an den Randern des 
Fensters bis auf Null absinkende Amplitude 

auf weist, dessen Breite wenigstens ungefahr 15 
das Zweifache der Ursprungsgrundperiode 
oder ungefahr das Zweifache der Synthese- 
grundperiode ist, je nachdem, ob die Synthe- 
segrundperiode gro&er oder kleiner als die 
Ursprungsgrundperiode ist, 20 

(b) die aus der Anwendung des Fensters re- 
sultierenden, jedem akustischen Element 
entsprechenden Signale mit einer zeitlichen 
Verschiebung derselben, welche gleich der 
Grundperiode der Synthese ist, gemafc einer 25 
die Grundfrequenz der Synthese betreffen- 

den prosodischen Information wiederaufge- 
stellt werden und 

(c) die Synthese durch Summierung der der- 

art verschobenen Signale durchgef uhrt wird, 30 
dadurch gekennzeichnet, 
dad das Verfahren keine spektrale Transformati- 
on der analysierten Signale zwischen den Schrit- 
ten (a) und (b) umfa&t, welche darauf abzielt, die 
Grundfrequenz dieser Signale zu modif izieren. 35 

2. Verfahren zur Sprachsynthese nach Anspruch 1 , 
dadurch gekennzeichnet, daft ein Lexikon von 
akustischen Elementen, z.B. von Diphonen, er- 
stellt wird, der zu synthetisierende Text in Mikro- 40 
ensembles aufgeteilt wird, welche jeweils durch 

die Nummer des entsprechenden akustischen 
Elements (Diphon) und wenigstens eine prosodi- 
sche, wenigstens von dem Wert der Grundfre- 
quenz am Anfang und am Ende des Elements 45 
und von der Dauer des Elements gebildete Infor- 
mation identif iziert werden. 

3. Verfahren zur Sprachsynthese nach einem der 
Anspruche 1 und 2, dadurch gekennzeichnet, so 
dad die Breite des Fensters das Zweifache der 
Ursprungsperiode im Fall der Verminderung der 
Grundfrequenz oder das Zweifache der Endpe- 
riode der Synthese im Fail der Verstarkung der 
Grundfrequenz ist 55 

4. Verfahren zur Sprachsynthese nach einem der 
Anspruche 1 bis 3, dadurch gekennzeichnet, dad 



das Fenster ein Hanning-Fenster ist. 

5. Sprachsynthesevomchtung zur Durchfuhrung des 
Verfahrens nach Anspruch 1, dadurch gekenn- 
zeichnet, dad sie an Bussen (18, 20) angeschlos- 
sen umfa&t ein Haupt-RAM (16), welches ein 
Berechnungs-Mikroprogramm, ein Lexikonterbuch 
(1 0) von Diphonen, welche von Wellenformen ge- 
bildet sind, die von in der Reihenfolge der Adres- 
sen eines Deskriptors (12) des Lexikons abge- 
speicherten Abtastwerten dargestellt werden, 
und ein abgetastetes Hanning-Fenster umfa&t, 
wobei das RAM (16) auch den Mikroensemble- 
speicher und den Arbeitsspeicher bildet; eine lo- 
kale Recheneinheit (24) und eine Verzweigungs- 
schaltung (26), welche es ermogticht, ein als Aus- 
gangspuffer dienendes RAM (28) entweder mit 
der Recheneinheit zu verbinden oder mit einer 
Steuereinheit (30) eines Digital/Analog-Aus- 
gangswandlers (32), welcher in ein einen Sprach- 
verstarker (36) speisendes Tiefpa&filter (34) 
mundet. 



Claims 

1. Method of speech synthesis from sound ele- 
ments (words, syllabes, diphones,...), wherein: 

(a) analysis is carried out, at least on the 
voiced sounds of the sound elements, by win- 
dowing by means of a filtering window approx- 
imately centered on the beginning of each 
pulse response of the vocal tract to an excita- 
tion of the vocal cords, the window having an 
amplitude decreasing to zero at the edges of 
the window, whose width is at least equal to 
twice the original fundemental period or twice 
the fundamental synthesis period, 

(b) the signals resulting from windowing cor- 
responding to each sound element are re- 
placed with a time shift thereof equal to a fun- 
damental synthesis period, which is lesser 
than or greater than the original fundamental 
period, responsive to prosodic information re- 
lating to the fundamental sysnthesis frequen- 
cy, 

(c) synthesis is carried out by summing the 
thus shifted signals, 

characterized in that the method does not 
include a spectral transformation of the analysed 
signals, for modifying the fundamental frequency 
of said analysed signals, between steps (a) and 
<b). 

2. Method of speech synthesis according to claim 1 , 

characterized in that a dictionary of sound 
elements, for example diphones, is formed; the 
text to be synthesized is split into microframes 
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each identified by the serial number of the corre- 
sponding sound element (diphone) and at least 
one prosodic information, formed at least by the 
value of the fundamental frequency at the begin- 
ning and at the end of an element and by the dur- s 
ation of the element. 

3. Method of speech synthesis according to any one 
of claims 1 and 2, 

characterized in that the width of the win- 10 
dow is equal to twice the original period in the 
case of reduction of the fundamental frequency 
or twice the final synthesis period in the case of 
increase of the fundamental frequency. 

15 

4. Method of speech synthesis according to any one 
of claims 1-3, 

characterized in that the window is a Han- 
ning window. 

20 

5. Device for speech synthesis carrying out the 
method of claim 1, 

characterized in that it comprises, con- 
nected to buses (18, 20): a main random access 
memory (16) which contains a computing micro- 25 
program, a dictionary of diphones (1 0) formed of 
waveforms represented by samples stored in the 
order of the addresses of a dictionary descriptor 
(12) and a sampled Hanning window, said ran- 
dom access memory (16) also forming a micro- 30 
frame memory and a working memory; a local 
computing unit (24) and a routing circuit (26) mak- 
ing it possible to connect a random access mem- 
ory (28) serving as output buffer either to the 
computing unit or to a controller (30) of an output 35 
digital/analog converter (32) driving a low pass 
filter (34) which feeds a speech amplifier (36). 
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